狀態碼 (2/2)，基本框架

至於代理人程式碼中對應的部份，目前為止都沒有發現 Ix01、Ix03 有什麼特別不同，所以他們也通常是被一起處理。如 examples/coord_clients/base.py 這隻被所有代理人（不限於隨機猴子或其他代理人）使用的共同程式當中的主遊玩迴圈 play（它會被一直呼叫直到遊戲結束）

    def play(self):
        data = self.s.recv(CODE_DATA+S)
        self.analyze(data)
        if data[0:4] in (b'Ix01', b'Ix03'):
            self.s.sendall(bytes([self.action]))
...

analyze 是個別代理人定義的方法，對盤面進行分析。像基本隨機猴子的話就會完全不分析亂試一通，但強化學習代理人就會使用傳入的神經網路模型針對盤面做推論。分析完之後，會有一個決定進行的行動 self.action。這個行動會透過網路傳回伺服器端（self.s.sendall(bytes([self.action]))）。這一段的邏輯完全是可以共用於 Ix01、Ix03 這兩個起手狀態的。

`Ix02` 嗯，你的標準回合結束！

這個狀態碼會發生在兩個地方。比較直覺的就是標準回合的尾端，標記階段結束之後，但還有另外一個隱藏的可能性，是在棋盤階段完成之後，實際上已經沒有標記可以下（比方說沿途全是敵方英雄、己方殖民地、或已經到達 5 枚標記但同區塊內已經有升級一座殖民地），那也應該標記為完成。

在代理人接收到這個狀態碼的時候，它不需要進行後續的行動，因為這已經是一個換手的訊號。

    def play(self):
...
        if data[0:4] in (b'Ix01', b'Ix03'): # 如前述
...
        elif data[0] != ord('I'): # 如果不是 I 開頭，就表示是有錯誤發生。提供給隨機猴子容錯用的
            self.s.sendall(bytes([self.action]))
        else: # 其他狀況
            if data[0:4] in (b'Ix00', b'Ix02'): # 在原地踏步或標準回合結束時，都會換手給另一方的玩家
                pass

也給各位讀者看看伺服器端的轉換。它取得代理人決定的行動，並且使用 PathogenEngine 提供的 action 系列函式庫呼叫之後，取得這些狀態碼，並且知道標準回合結束，如（一樣是在handle_client當中的片段）

...
                        if stream.update_agent(g, &am.action, &fc, &s) == false {
                            // 如果更新資訊給客戶端出了任何問題，這裡就回傳 `false` 代表連線將斷開
                            return false;
                        } else {
                            // 連線持續時
                            if s.as_bytes()[0] == b'E' {
                                // 有錯誤的情況，這一樣是隨機猴子容錯用的。伺服器端寬容地接受錯誤的著手，並要求重下。
                                // 在這系列文後期，已經很少有這種需求了，畢竟那很浪費時間。
                                continue 'set_marker;
                            } else if s == "Ix02" {
                                // 離開這個迴圈
                                break 'set_marker;
                            }
...
                } // 名為 'set_marker 迴圈的結束區

                // commit the action to the game
                assert_eq!(am.action.action_phase, ActionPhase::Done);
                next(g, &am.action);
...
            // 結束這一次的 handle_client 處理，回到主迴圈
            return true;

三種結束碼 `Ix04`，`Ix05`，以及 `Ix06`

承上，觀察 handle_client回到主迴圈的狀況是

    while let Phase::Main(x) = g.phase {
        let turn: usize = x.try_into().unwrap();
        // 這就是對應到剛才的片段的 handle_client 的呼叫，turn 值作為索引在 0 和 1 之間跳動
        // 類似伺服器全權管理著誰可以和棋盤互動。
        // 先前如果任何地方回傳 false，就會被這裡解讀成 Ix06 的斷線狀態
        if !handle_client(&mut s[turn % 2], &mut g) {
            s[turn % 2].update_agent(&g, &ea, &ec, &"Ix06");
            s[1 - turn % 2].update_agent(&g, &ea, &ec, &"Ix06");
            drop(s);
            break;
        }
        // 如果遊戲結束了，那分別傳送勝負結果。
        if g.is_ended() {
            s[turn % 2].update_agent(&g, &ea, &ec, &"Ix04");
            s[1 - turn % 2].update_agent(&g, &ea, &ec, &"Ix05");
            break;
        }
    }

Ix06 在這個版本的伺服器是結束碼，讓還活著的代理人能夠接收到遊戲斷線的消息。然而這個機制如同第八天提到的，已經修改成斷線就由隨機步數生成的機制頂上持續對局。

其他，Ix04 是通知勝利，Ix05 是通知敗局。如同先前在目前狀態小節當中持續更新的那樣，我讓醫療方的代理人會回報自己的勝率，就是透過這個機制來統計的，如 examples/coord_clients/main.py 當中，

...
        if args.side == 'Doctor' and a.result == b'Ix04':
            # 若這是代表醫療方的代理人且獲得了勝利的終局碼
            doctor_wins = doctor_wins + 1

    # 離開遊戲迴圈之後...
    # 離開程式之前，做個總結
    if args.side == 'Doctor':
        print(f"{doctor_wins/args.batch*100:6.2f} %", file=sys.stderr)

之後，在蒙地卡羅實作時，也發現了有更多不同狀態的需求。屆時再與大家分享相關部份。

目前狀況

延續昨天，我可以完全使用強化版的隨機對局，快速地生成殘局譜資料集。但是有一個過於貪心的嘗試，也是蠻好笑的。我在五分鐘左右的時間生成超過八十萬局疫途對戰資料。第一個貪心之處在於收集這些譜做成資料集。由於目前殘局譜生成器的寫法，是一直呼叫 write_all，且一直都沒有關閉檔案或是釋放記憶體，以至於原來這個程式在我的筆電上（16GB RAM）沒辦法直接吃下這八十萬局。大概超過 50% 就會觸發 OOM。